Световни новини без цензура!
Черните кутии на изкуствения интелект току-що станаха малко по-малко мистериозни
Снимка: nytimes.com
New York Times | 2024-05-21 | 18:03:36

Черните кутии на изкуствения интелект току-що станаха малко по-малко мистериозни

Едно от по-странните и по-изнервящи неща за днешните водещи системи за изкуствен интелект е, че никой – дори хората, които ги изграждат — наистина знае как работят системите.

Това е така, защото големите езикови модели, типът на ИИ. системите, които захранват ChatGPT и други популярни чатботове, не се програмират ред по ред от човешки инженери, както са конвенционалните компютърни програми.

Вместо това тези системи по същество се учат сами, чрез поглъщане на огромни количества данни и идентифициране на модели и връзки в езика, след което използване на това знание за предсказване на следващите думи в последователност.

Една последица от изграждането на ИИ. системи по този начин е, че е трудно да ги проектирате обратно или да коригирате проблеми чрез идентифициране на конкретни грешки в кода. Точно сега, ако потребител напише „Кой американски град има най-добрата храна?“ и чатботът отговаря с „Токио“, няма реален начин да разберем защо моделът е направил тази грешка или защо следващият човек, който пита, може да получи различен отговор.

по необмислен начин по време на взаимодействие с мен и дори висши ръководители на Microsoft не можаха да ми кажат със сигурност какво се е объркало.)

Неразгадаемостта на големите езикови модели не е просто раздразнение, а основна причина някои изследователи страх, че мощен ИИ. системи в крайна сметка могат да се превърнат в заплаха за човечеството.

В края на краищата, ако не можем да разберем какво се случва вътре в тези модели, как ще разберем дали те могат да бъдат използвани за създаване нови биологични оръжия, разпространяване на политическа пропаганда или писане на зловреден компютърен код за кибератаки? Ако мощният ИИ. системи започват да не се подчиняват или да ни мамят, как можем да ги спрем, ако не можем да разберем какво причинява това поведение на първо място?

За да се справим с тези проблеми, малка подполе на A.I. изследвания, известни като „механистична интерпретируемост“, са прекарали години в опити да надникнат в вътрешностите на ИИ. езикови модели. Работата върви бавно и напредъкът е постепенен.

Също така има нарастваща съпротива срещу идеята, че A.I. системите изобщо представляват голям риск. Миналата седмица двама старши изследователи по безопасността в OpenAI, производителят на ChatGPT, напуснаха компанията поради конфликт с ръководителите относно това дали компанията прави достатъчно, за да направи продуктите си безопасни.

Картографиране на съзнанието на голям езиков модел.“

Изследователите погледнаха вътре в един от ИИ на Anthropic. модели – Claude 3 Sonnet, версия на езиковия модел Claude 3 на компанията – и използваха техника, известна като „обучение по речник“, за да разкрият модели в това как комбинациите от неврони, математическите единици вътре в ИИ. модел, бяха активирани, когато Клод беше подканен да говори по определени теми. Те идентифицираха приблизително 10 милиона от тези модели, които наричат ​​„характеристики“.

Те откриха, че например една функция е активна, когато Клод е помолен да говори за Сан Франциско. Други функции бяха активни винаги, когато се споменаваха теми като имунология или специфични научни термини, като химическия елемент литий. И някои функции бяха свързани с по-абстрактни понятия, като измама или пристрастност към пола.

Те също откриха, че ръчното включване или изключване на определени функции може да промени начина, по който ИИ. система се е държала или може да я накара дори да наруши собствените си правила.

Например, те откриха, че ако принудят функция, свързана с концепцията за подлизурство, да се активира повече силно, Клод би отговорил с цветисти, прекомерни похвали за потребителя, включително в ситуации, в които ласкателството е неуместно.

Крис Ола, който ръководи изследването за интерпретация на Anthropic екип, каза в интервю, че тези открития могат да позволят на A.I. компаниите да контролират своите модели по-ефективно.

„Откриваме функции, които могат да хвърлят светлина върху опасенията относно пристрастията, рисковете за безопасността и автономността“, каза той. „Чувствам се много развълнуван, че може да успеем да превърнем тези противоречиви въпроси, за които хората спорят, в неща, върху които всъщност можем да водим по-продуктивен дискурс.“

Други изследователи са открили подобни явления в малки и средни езикови модели. Но екипът на Anthropic е сред първите, които прилагат тези техники към модел в пълен размер.

Якоб Андреас, доцент по компютърни науки в M.I.T., който прегледа резюме на Изследването на Anthropic го характеризира като обнадеждаващ знак, че може да е възможна широкомащабна интерпретируемост.

„По същия начин, по който разбирането на основни неща за това как работят хората ни помогна да излекуваме болести, разбирането как работят тези модели ще ни позволи да разпознаем кога нещата са на път да се объркат и ще ни позволи да изградим по-добри инструменти за контролирането им“, каза той.

Mr. Олах, изследователският ръководител на Anthropic, предупреди, че докато новите открития представляват важен напредък, A.I. интерпретируемостта все още е далеч от решен проблем.

За начало, каза той, най-големият ИИ. моделите вероятно съдържат милиарди функции, представляващи различни концепции - много повече от около 10 милиона функции, които екипът на Anthropic твърди, че е открил. Намирането на всички тях би изисквало огромно количество изчислителна мощност и би било твърде скъпо за всички, освен за най-богатия ИИ. компании да се опитат.

Дори ако изследователите трябваше да идентифицират всяка функция в голям ИИ. модел, те пак ще имат нужда от повече информация, за да разберат пълната вътрешна работа на модела. Също така няма гаранция, че A.I. компаниите биха предприели действия, за да направят своите системи по-безопасни.

Все пак, каза г-н Ола, дори да отвори тези ИИ. черните кутии малко биха могли да позволят на компаниите, регулаторите и широката общественост да се чувстват по-уверени, че тези системи могат да бъдат контролирани.

„Има много други предизвикателства пред нас , но нещото, което изглеждаше най-страшно, вече не изглежда като пречка“, каза той.

Източник: nytimes.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!